无监督的视频对象细分(UVO)是指无需手动指导即可在视频中分割突出对象的具有挑战性的任务。换句话说,净工作在没有先验知识的情况下以一系列RGB框架检测目标对象的准确区域。在重点作品中,已经讨论了两种可以分为:基于外观和外观运动的方法。基于外观的方法利用框架间的范围信息来捕获通常以序列出现的目标对象。但是,这些方法不考虑目标对象的运动,这是由于利用随机配对帧之间的相关信息。另一方面,基于外观运动的方法将RGB帧中的外观特征与光流的运动特征融合在一起。运动提示提供了有用的信息,因为显着对象通常在序列中显示出独特的运动。但是,这些方法的限制是对光流的依赖性主要是主要的。在本文中,我们提出了一个针对紫外线的新型框架,可以从时间和规模上提出上述两种方法的局限性。时间对齐融合将相邻帧的显着信息与目标框架保持一致,以利用相邻帧的信息。比例比对解码器通过连续映射与隐式神经表示通过连续映射汇总不同规模的特征图来预测目标对象掩模。我们在公共基准数据集,戴维斯(Davis)2016和FBM上提出了实验结果,这些结果证明了我们方法的有效性。此外,我们在2016年戴维斯(Davis)上的最先进方法。索引术语 - 视频对象细分,时间对齐,比例对齐,隐式神经代表,联合培训
主要关键词